阿里又开源了:一个端到端文档解析模型!文档布局识别能力提升!
像 GPT-4o、Qwen2.5-VL、SEED1.5-VL 这类端到端模型,在处理 PDF 扫描件时表现亮眼,不仅能提取文字,还能做表格分析、图表解读,甚至回答复杂问题。
像 GPT-4o、Qwen2.5-VL、SEED1.5-VL 这类端到端模型,在处理 PDF 扫描件时表现亮眼,不仅能提取文字,还能做表格分析、图表解读,甚至回答复杂问题。
Ollama-OCR是一个Python的OCR解析库,结合了Ollama的模型能力,可以直接处理 PDF 文件无需额外转换,轻松从扫描版或原生PDF文档中提取文本和数据。根据使用的视觉模型和自定义提示词,Ollama-OCR可支持多种语言,并且能把文档转换为特